확률과 통계: 불확실성의 과학: 조건부 분포를 통한 관계 정의

통계의 패러다임 전환에 오신 것을 환영합니다. 우리는 단순한 '추세선' 직관을 넘어 엄밀한 분포 기반 프레임워크로 나아가고 있습니다. 여기서는 상관 계수만으로 관계를 정의하는 것이 아니라, 예측 변수 $X$를 변화시킬 때 반응 변수 $Y$의 확률적 행동이 어떤 변화가 있는지로 관계를 정의합니다.

정의 10.1.1: 통계적 연결

$X$와 $Y$ 두 변수는 관련된 만약 어떤 조건부 분포가 $X = x$일 때 $x$가 변함에 따라 변화가 있다면, 관련된 것으로 간주됩니다. 반대로, '관계 없음' 상태는 $X$와 $Y$의 독립성과 수학적으로 동치입니다.

논리적 동치성

$X$와 $Y$ 변수는 모든 $x$ 값에 대해 $f(y|x) = f(y)$인 경우에만 서로 무관합니다. 이는 결합 상대 빈도 함수가 다음과 같이 인수분해될 수 있음을 의미합니다:

$$f(x, y) = f(x)f(y)$$

따라서 관계를 검증하는 것은 본질적으로 독립성을 검증하는 것입니다.

변화의 메커니즘

관계는 조건부 밀도 함수의 어떤 이동(그림 10.1.1 참조)으로 확인됩니다. 포함되는 내용은:

평균 이동: $E(Y|X)$의 기대값이 변화합니다(가장 일반적인 초점).
분산 이동: $Y$의 분산 또는 불확실성은 $X$에 의존합니다(이분산성).
형태 변화: 전체 분포가 변형됩니다(예: 대칭에서 비대칭으로).

설계를 통한 인과성 확보

통계적 관계는 인과성을 시사하지 않습니다. $X$가 인과한다 $Y$를 유발한다고 주장하려면, 혼란 변수를 고려해야 하며 이를 통해 실험 설계를 통해 수행해야 합니다:

대조군 처리: 비교를 위한 기본 기준을 제공합니다.
플라시보 효과: 무작위 처리를 통해 인식된 개선을 완화합니다.
이중 맹검: 사용하여 맹검 실험 (참여자가 모름) 및 이중 맹검 실험 (참여자와 연구자 모두 모름)을 통해 편향을 제거합니다.
블로킹: 예시 10.1.7에서 볼 수 있듯이, 예시 10.1.7우리는 블로킹 변수($W$, 예: 토양 비옥도 등)를 사용하여 밀의 종류($X$)와 수확량($Y$) 사이의 관계가 사전 조건에 의해 왜곡되지 않도록 보장합니다.

🎯 핵심 수학적 추정

이러한 관계를 조건부 가능도 함수를 사용하여 추정합니다. 이산 데이터의 빈도 $f_{ij}$에 대해:

$$L = \prod_{i=1}^a \prod_{j=1}^b (\theta_{j|X=i})^{f_{ij}}$$ 표준 오차: $SE = \sqrt{\frac{\hat{\theta}_{ij}(1 - \hat{\theta}_{ij})}{n}}$

질문 1

정의 10.1.1에 따르면, $X$와 $Y$가 관련 있다고 간주되기 위해 무엇이 일어나야 하나요?

$X$와 $Y$ 사이의 상관 계수가 정확히 1이어야 합니다.

$X=x$일 때 $Y$의 조건부 분포가 $x$가 변함에 따라 어떤 방식으로든 변화해야 합니다.

$X$와 $Y$는 선형 함수 $g$를 가진 함수 관계 $Y = g(X)$를 가져야 합니다.

$X$와 $Y$는 독립적이어야 합니다.

질문 2

$X = x$일 때 $Y$의 조건부 분포가 $N(1 + 2x, |x|)$로 주어졌다고 가정해보세요. $X$와 $Y$는 관련이 있나요?

예, 평균($1+2x$)과 분산($|x|$)이 $x$가 변함에 따라 모두 변화하기 때문입니다.

아니요, $N$은 항상 정규 분포이기 때문입니다.

단지 $x$가 양의 정수일 때만 해당됩니다.

아니요, 그들은 독립적이기 때문입니다.

질문 3

임상 시험에서 '이중 맹검' 실험의 목적은 무엇입니까?

표본 크기가 두 배로 늘어나 테스트의 검정력을 향상시키게 하기 위함입니다.

참여자와 연구자가 누가 치료 또는 위약을 받았는지 알 수 없도록 방지하기 위함입니다.

두 가지 다른 용량만 테스트되도록 보장하기 위함입니다.

다항 가능성 함수의 요구 사항을 충족하기 위함입니다.

질문 4

왜 함수적 접근법 $Y = g(X)$는 실용적인 통계 응용에서 자주 부족한가요?

수학 함수는 통계에서 사용할 수 없기 때문입니다.

현실 세계의 관계는 $g(x)$가 포착하지 못하는 확률적 불확실성이나 관측되지 않은 요인이 포함되어 있기 때문입니다.

$g(X)$는 항상 $X$가 범주형 변수여야 하기 때문입니다.

가능도 함수는 독립 변수에만 작동하기 때문입니다.

질문 5

$X$는 1과 2의 값을 가지며, $X = 1$일 때 $Y$의 조건부 분포는 $N(0, 5)$이고, $X = 2$일 때는 $N(0, 7)$이라고 가정해보세요. $X$와 $Y$는 관계가 있나요?

아니요, 둘 다 평균이 0이기 때문입니다.

예, $Y$의 분산(분산 범위)이 5에서 7로 변화하기 때문입니다.

아니요, 관계는 기대값의 변화가 필요하기 때문입니다.

단지 $Y$가 이산 변수일 때만 해당됩니다.